1 聚类方法

#Cluster #CorrelationCoefficient #ScatterMatrix #CovarianceMatrix #KMeans #MahalanobisDistance

1 聚类的基本概念

1.1 相似度距离

聚类的对象是观测数据或者样本集合. 假设有 $n$ 个样本, $m$ 个属性(feature), 将样本集合用矩阵 $X$ 表示 $X = [x_{i j}]_{m \times n} = [\begin{matrix} x_{11} & \dots & x_{1 n} \\ ⋮ & ⋱ & ⋮ \\ x_{m 1} & \dots & x_{m n} \end{matrix}] .$
矩阵的列表示样本, 行表示属性.

1.1.1 Minkowski 距离

在 K近邻法中我们定义了距离, 现在重新叙述一下记号:

Minkowski 距离

给定样本集合 $X \subset R^{m}$ , $x_{i} = (x_{1 i}, \dots, x_{m i})^{T} \in X, x_{j} = (x_{1 j}, \dots, x_{m j})^{T} \in X$ . 定义 $x_{i}, x_{j}$ 的Minkowski 距离为 $d_{i j} = {(\sum_{k = 1}^{m} | x_{k i} - x_{k j} |^{p})}^{\frac{1}{p}}, p \geq 1.$

$p = 2$ 时, 称为 Euclide 距离: $d_{i j} = {(\sum_{k = 1}^{m} | x_{k i} - x_{k j} |^{2})}^{\frac{1}{2}}$ ;
$p = 1$ 时, 称为 Manhattan 距离: $d_{i j} = \sum_{k = 1}^{m} | x_{k i} - x_{k j} |$ ;
$p = \infty$ 时, 称为 Chebyshev 距离: $d_{i j} = max_{k} | x_{k i} - x_{k j} |$ .

1.1.2 Mahalanobis 距离 (马氏距离)

Mahalanobis 距离

给定样本集合 $X = [x_{i j}]_{m \times n}$ , 协方差矩阵为 $S$ . 则 $x_{i}, x_{j}$ 的Mahalanobis距离定义为 $d_{i j} = [(x_{i} - x_{j})^{T} S^{- 1} (x_{i} - x_{j})]^{\frac{1}{2}} .$
$x_{i}, x_{j}$ 是 $X$ 的第 $i, j$ 列.

当 $S = I$ , 马氏距离就是欧式距离.

1.1.3 相关系数

1.1.4 夹角余弦

从向量的观点看, $x_{i}, x_{j}$ 的相似度还可以用夹角余弦 $s_{i j} = \frac{\sum_{k = 1}^{m} x_{k i} x_{k j}}{{[\sum_{k = 1}^{m} x_{k i}^{2} \sum_{k = 1}^{m} x_{k j}^{2}]}^{\frac{1}{2}}} .$

Pasted image 20241128155122.png|500
选择合适的距离或者相似度非常重要. 例如在上图中, 从距离来看 $A, B$ 比 $A, C$ 更相似; 从相关系数角度看, $A, C$ 比 $A, B$ 更相似.

1.2 类或簇

类或簇是样本的子集. 硬聚类规定样本只能属于一个类, 软聚类则允许同时属于多个类. 本章考虑硬聚类.
用 $G$ 表示类或簇, 用 $x_{i}, x_{j}$ 表示类中的样本, $n_{G}$ 表示 $G$ 中样本个数, $d_{i j}$ 表示 $x_{i}, x_{j}$ 距离.

类的等价定义

给定正数 $T$ .

$\forall x_{i}, x_{j} \in G : d_{i j} \leq T$ , 则 $G$ 是一个类.
$\forall x_{i}, \exists x_{j} \in G : d_{i j} \leq T$ , 则 $G$ 是一个类.
$\forall x_{i} \in G, \frac{1}{n_{G} - 1} \sum_{x_{j} \in G} d_{i j} \leq T$ , 则 $G$ 是一个类.
给定正数 $V$ . $\forall x_{i}, x_{j}$ , $d_{i j}$ 满足 $\frac{1}{n_{G} (n_{G} - 1)} \sum_{x_{i} \in G} \sum_{x_{j} \in G} d_{i j} \leq T, d_{i j} \leq V,$ 则 $G$ 是一个类.

类的常用特征

均值/中心 ${\overset{―}{x}}_{G} = \frac{1}{n_{G}} \sum_{i = 1}^{n_{G}} x_{i}$ .
直径 $D_{G} = max_{x_{i}, x_{j} \in G} d_{i j}$ .
样本散布矩阵 $A_{G} = \sum_{i = 1}^{n_{G}} (x_{i} - {\overset{―}{x}}_{G}) (x_{i} - {\overset{―}{x}}_{G})^{T}$ ;
样本协方差矩阵 $S_{G} = \frac{1}{m - 1} A_{G} = \frac{1}{m - 1} \sum_{i = 1}^{n_{G}} (x_{i} - {\overset{―}{x}}_{G}) (x_{i} - {\overset{―}{x}}_{G})^{T}$ .

1.3 类间距离

类 $G_{p}, G_{q}$ 之间的距离 $D_{p q}$ 也称为连接(linkage). 设 $n_{p} = | G_{p} |, n_{q} = | G_{q} |$ . 用 ${\overset{―}{x}}_{p}, {\overset{―}{x}}_{q}$ 表示两者的中心.

类间距离

最短距离(single linkage) $D_{p q} = min {d_{i j} | x_{i} \in G_{p}, x_{j} \in G_{q}}$ .
最长距离/完全连接(complete linkage) $D_{p q} = max {d_{i j} | x_{i} \in G_{p}, x_{j} \in G_{q}}$ .
中心距离 $D_{p q} = d_{{\overset{―}{x}}_{p} {\overset{―}{x}}_{q}}$ .
平均距离 $D_{p q} = \frac{1}{n_{p} n_{q}} \sum_{x_{i} \in G_{p}} \sum_{x_{j} \in G_{q}} d_{i j}$ .

2 层次聚类

层次聚类假设类别间有层次结构(有点类似决策树), 分成

聚合(agglomerative)/自下而上 (bottom-up),
分裂(divisive)/自上而下 (top-down)

两种方法. 层次聚类属于硬聚类. 本文只考虑聚合聚类.

聚合聚类算法

输入 $n$ 个样本组成的样本集合; 样本间的距离
输出样本集合的层次化聚类

计算 Euclide 距离 ${d_{i j}}$ , 记为 $D = [d_{i j}]_{n \times n}$ .
构造 $n$ 个类，每个类包含一个样本.
合并类间隔距离最小的两个类, 按其中的最短距离作为类间距离, 构造一个新类.
计算新类与当前各类的距离. 若类的个数为 $1$ , 终止计算, 否则会到 3.

复杂度是 $O (n^{3} m)$ . 事实上它构造了一个二叉树.

对如下距离矩阵

D

进行层次聚类:

$D = [\begin{matrix} 0 & 7 & 2 & 9 & 3 \\ 7 & 0 & 5 & 4 & 6 \\ 2 & 5 & 0 & 8 & 1 \\ 9 & 4 & 8 & 0 & 5 \\ 3 & 6 & 1 & 5 & 0 \end{matrix}] .$

首先构造 $G_{i} = {x_{i}}, i = 1, \dots, 5$ .
看出 $D_{35} = D_{53} = 1$ 是距离最小的两个类, 将 $G_{3}, G_{5}$ 合并成 $G_{6}$ . 此时写出新的距离矩阵 (按照 $G_{1}, G_{2}, G_{4}, G_{6}$ 的顺序) $D_{1} = [\begin{matrix} 0 & 7 & 9 & 2 \\ 7 & 0 & 4 & 5 \\ 9 & 4 & 0 & 5 \\ 2 & 5 & 5 & 0 \end{matrix}] .$
此时 $D_{16} = D_{61} = 2$ 最小, 因此合并 $G_{1}, G_{6}$ 为 $G_{7} = {x_{1}, x_{3}, x_{5}}$ . 同理得到 $D_{2} = [\begin{matrix} 0 & 4 & 5 \\ 4 & 0 & 5 \\ 5 & 5 & 0 \end{matrix}] .$ (按 $G_{2}, G_{4}, G_{7}$ 排序).
此时 $D_{24} = 4$ 最小, 合并为 $G_{8} = G_{2} \cup G_{4} = {x_{2}, x_{4}}$ .
最后 $G_{9} = G_{7} \cup G_{8} = {x_{1}, \dots, x_{5}}$ .

Pasted image 20241128205902.png

1 聚类方法

1 聚类的基本概念

1.1 相似度距离

1.1.1 Minkowski 距离

1.1.2 Mahalanobis 距离 (马氏距离)

1.1.3 相关系数

1.1.4 夹角余弦

1.2 类或簇

1.3 类间距离

2 层次聚类

3 K 均值聚类 (K-Means)

3.1 模型与算法

1 聚类的基本概念

1.1 相似度 距离

1.1.1 Minkowski 距离

1.1.2 Mahalanobis 距离 (马氏距离)

1.1.3 相关系数

1.1.4 夹角余弦

1.2 类或簇

1.3 类间距离

2 层次聚类

3 K 均值聚类 (K-Means)

3.1 模型与算法

1.1 相似度距离